摘要。简单的数据增强技术(例如旋转和翻转)被广泛用于增强计算机视觉模型的概括能力。但是,这些技术通常无法修改类的高级语义属性。为了解决这一限制,研究人员探索了诸如最近提出的DA-Fusion之类的生成增强方法。尽管有一些进展,但这些变化仍主要仅限于纹理变化,因此在各个方面的观点,环境,天气条件甚至班级语义属性(例如,狗的品种的变化)之类的方面缺乏。为了克服这一挑战,我们在融合融合的基础上提出了Diagen。首先,我们将高斯噪声应用于具有文本反演的对象的嵌入,以使用预训练的扩散模型的知识来多样化世代。第二,我们利用文本到文本生成模型的一般知识来指导具有各种特定于类的提示的扩散模型的图像生成。最后,我们引入了一种加权机制,以减轻样品产生的影响。各个数据集的实验结果表明,Diagen不仅增强了语义多样性,而且还可以提高随后的分类器的性能。Diagen的优点比标准增强和DA融合基线的优点特别明显在分发样品中。1
主要关键词